#respuestas extensas

SD-GRPO: Descomposición verificable de segmentos en VL larga

SD-GRPO mejora la generación de respuestas largas en modelos multimodales al descomponer segmentos verificables y asignar recompensas precisas.